ИИ и научное знание: содержательные и правовые аспекты

Очевидно, что искусственный интеллект (ИИ) не может быть признан автором или соавтором ни с точки зрения научной коммуникации, ни с позиции авторского права, однако он становится полноценным инструментом исследователя, неотъемлемой частью научного ландшафта. Сегодня практически любой человек с известными финансовыми и логистическими ограничениями может использовать генеративные модели в своей работе.

Каковы границы возможностей инструментов ИИ? Способен ли GPT генерировать новое знание или его удел — бесконечное воспроизведение чужих мыслей? Кому могут принадлежать права на эту информацию? Может ли ИИ беспрепятственно напитываться мудростью из чужих источников? Тему обсудили участники организованного «Директ-Академией» вебинара, модератором которого выступил Вадим Курпаков.

НОВОЕ ЗНАНИЕ: ЧТО МОГУТ GPT?

Ключевое в науке — это производство новых знаний. Можно ли рассматривать продукт, который получается в результате взаимодействия человека и системы ИИ, как новое знание?

Вадим ВАСИЛЬЕВ, член-корреспондент РАН, заведующий кафедрой истории зарубежной философии МГУ имени М.В. Ломоносова

— Говоря кантовским языком, инструменты ИИ аналитичны, потому что это обусловлено механикой их работы. В нейросети загружаются огромные базы данных, а потом на основе частотных соотношений определённых слов или цифр прогнозируется вероятность завершения тех или иных фраз. Исходя из этой конструкции ИИ работает в аналитическом ключе. Это не даёт приращения нового знания, однако вероятностные связи, которые обнаруживаются в этой базе данных, могут оказаться чем-то совершенно нетривиальным для тех, кто ими пользуется. Другими словами, ИИ способен формулировать какие-то гипотезы. Сами по себе гипотезы — тоже не новое знание, их надо проверять на опыте. Если эти неочевидные связи подтверждаются, то действительно происходит обретение нового знания. Таким образом, GPT-модели можно использовать для получения нового знания. Но проблема в том, что пока они умножают не знания, а заблуждения, безудержно фантазируют от незнания. И это не удивительно, потому что их интеллектуальный уровень крайне низок. Эти чаты беспомощны в понимании даже фундаментальных логических законов, они не могут оценить формальную правильность рассуждения. Возможно, проблема связана с тем, что сам принцип функционирования этих систем очень спорный. Таким образом, нейросети могут быть инструментами расширения знания, но лишь в том случае, если смогут преодолеть болезни роста.

Есть ли у юристов понимание того, как назвать результат, получаемый из общения ИИ и пользователя?

Екатерина ЧУКОВСКАЯ, директор Научно-образовательного центра интеллектуальной собственности и цифровой экономики Digital IP, вице-президент по R&D Федерации интеллектуальной собственности

— Юристы сегодня сходятся в том, что ИИ — это орудие труда, а не самостоятельный субъект. Всё, что создано с его помощью, будет результатом деятельности человека, который его на это сподвиг. При этом важно не только то, кто на входе, но и то, кто на выходе. Скорость реагирования ИИ феноменальна, но ему не свойственна критика: оценить свои результаты он не может. Поэтому все случаи использования генеративных произведений предполагают, что на выходе есть человек с пониманием того, что он хочет получить.

В 2019 г. Верховный Суд РФ принял постановление пленума, обобщающего практику, где отмечено, что для авторского права нехарактерна какая-либо оценка того, что представляется к охране. В отличие от патентного права, где есть масса критериев, авторское право охраняет всё независимо от достоинства, назначения и т.п. Кроме того, Суд уточнил, что отсутствие новизны, оригинальности и т.п. тоже не может свидетельствовать о том, что объект недостоин защиты. Например, перевод или реферат не содержит ничего нового, однако подлежит охране.

Суд высказался и по поводу использования различных технических средств: на охрану не влияет то, собственноручно автор работал или с применением каких-либо приспособлений. Если такое орудие труда необходимо автору, он имеет право им пользоваться, и это не влияет на охраноспособность результатов.

Ещё один момент: что делать, если машина сработала сама, без вмешательства человека? По формальным признакам к фотографии можно отнести рентгеновские снимки, фиксацию ДТП на дорогах или превышение скорости. Здесь Суд высказался однозначно: такие объекты охранять авторским правом нельзя, потому что участия человека здесь нет. Общий вывод: авторское право — это право человека, но при этом то, что в результате получается, может быть оценено в зависимости от степени участия человека.

Судебная практика разнообразна, и важна реакция лиц, принимающих решения. Например, в США в 2022 г. художница Крис Каштанова принесла в Копирайт-офис для регистрации свой комикс «Заря рассвета», а когда ей задепонировали права и выдали свидетельство, она заявила, что историю сочинил ChatGPT. Копирайт-офис отыграл ситуацию обратно, пояснив, что такое решение быть принято не может. Спустя полтора года японская писательница Риэ Кудан подала свою работу «Токийская башня сочувствия» на Премию Акутагавы и сообщила, что 5% написано ChatGPT, причём объяснила это тем, что в книге есть вопросы, которые она не могла обсуждать с живыми людьми. И ей присудили первую премию.

В научной сфере можно привести другие примеры, когда одни вузы пытаются порицать случаи использования ИИ, другие —поощрять. Но в художественном творчестве путь уже пройден: это не воспринимается ни как мошенничество, ни как обман. Есть уже отдельный сегмент рынка: на Amazon продаются книги, созданные нейросетью.

Денис КОСЯКОВ, заместитель заведующего лабораторией наукометрии и научных коммуникаций Российского научно-исследовательского института экономики, политики и права в научно-технической сфере, научный сотрудник лаборатории искусственного интеллекта и информационных технологий Института вычислительной математики и математической геофизики Сибирского отделения Российской академии наук

—Консолидированного мнения по поводу ИИ в научном сообществе нет, потому что ситуация очень быстро развивается. Те проблемы, о которых говорили коллеги, характерны для разных этапов становления ИИ. Технология, придуманная ещё в середине прошлого века, прошла длинный путь развития с фазовыми переходами. То же самое происходит с генеративным ИИ. Сначала появились сервисы типа Midjourney, затем стали развиваться большие языковые модели.

Есть масса исследований, показывающих, что в зависимости от размера модели принципиально меняется её качество. Часто это происходит скачкообразно и непредсказуемо; мы не понимаем, какие возможности могут появиться у следующего поколения. По мнению одного из исследователей Open AI, большие языковые модели, с которыми мы работаем сейчас, на самом деле малы по отношению к моделям следующего года. Масштабы меняются, способности возрастают.

С точки зрения науки сегодняшние GPT-модели уже производят новое знание. Они способны сформулировать гипотезу, построить алгоритм её проверки, определить, где можно взять данные или провести опыт, если к ним подключено лабораторное оборудование, проанализировать результаты и написать текст. Это полный цикл научного исследования.

Распространён подход ко всему связанному с компьютерами: это просто программы, что не совсем так. ИИ гораздо сложнее. Да, конечно, там статистика и предсказание. С другой стороны, что делает человек? Он тоже предсказывает свои действия на основе некоторой статистики, собственного жизненного опыта. Вполне возможно, здесь когнитивный механизм ИИ сходен с человеческим. Причём есть примеры моделей, не обязательно текстовых: они связаны с предсказанием климатических изменений, материаловедением и т.п. Это области практического применения, где уже имеются качественные научные результаты.

При этом надо понимать, что мы имеем дело с большими языковыми моделями, интеллект которых соответствует разуму четырёхлетнего ребёнка. Безусловно, существуют пределы того, что можно «скормить» нейросетям. Здесь важно, что мы всегда оцениваем конкретную модель, но сравниваем её не с отдельным человеком, а с человечеством. Может ли робот написать симфонию или превратить кусок холста в произведение искусства? Но надо спросить себя: а сам-то я смогу? Сравнивать ИИ с человечеством можно будет тогда, когда ИИ станет много, когда модели начнут обучаться совместной работе.

На большие языковые модели оказывает существенное влияние тот контент, на котором они обучаются. Качественного контента в Интернете сейчас 1012 токенов, постепенно он расширяется, но тем не менее горизонты есть. На чём ещё будут учиться эти модели — сложный вопрос. Все мы знаем компанию Tesla, в автомобили которой встроен автопилот. Он ещё не полностью самостоятелен, и в нём до недавнего времени было порядка 300 тыс. строчек кода, описывающих сочетание различных дорожных обстоятельств. В последней версии данного ПО эти 300 тыс. строчек заменили нейронными сетями, т.е. это уже не программирование, не алгоритмы, а статистические модели поведения, свойственные человеку. Новое поколение ИИ обучается не только на текстах, но и на видео, картинках, движениях людей, показаниях датчиков и т.п. Когда модели начнут более полно воспринимать действительность, произойдёт существенный прорыв. Кроме того, в ChatGPT организовано так называемое обучение с подкреплением — на основе отзывов. И конкретный набор людей, которые такие отзывы формируют, накладывает свой отпечаток на настройку этой модели. Собственно, диалоговые модели и ведут себя как люди: если студент ничего не знает, но хочет показаться умным, он будет придумывать. Если перенастроить ChatGPT, он станет критиковать, поэтому такие модели сейчас применяют для рецензирования научных текстов. Некоторые крупные издательства начинают встраивать ИИ в свои процессы: драфты рецензий пишет ChatGPT. И понятно, что от тренеров многое зависит. Так, в компании Илона Маска хAI при настройке чат-бота Grok были существенно занижены этические требования, там было меньше толерантности, поэтому суждения оказались гораздо более острыми.

ПРАВО НА ОТВЕТСТВЕННОСТЬ

Кому принадлежат права на знания, произведённые ИИ? Кто может считаться автором, если система научных коммуникаций и авторское право говорят о том, что GPT им являться не может? Возникает ли в таком случае правообладатель?

Д. Косяков:

—На данном уровне профессиональное сообщество считает, что ИИ — это просто инструмент, точно такой же, как и MS Word, который автоматически правит ошибки и пытается что-то подсказывать. Автор —тот человек, который взаимодействовал с этой системой. Есть попытки обдумать другую модель. Её приверженцы считают, что, если вы написали промпт, это ещё ничего не значит, а полученный контент —это очень сложный, но плагиат, конспект всего человеческого знания. Здесь нет ни автора, ни правообладателя, а сам текст, грубо говоря, нелегитимен: его нельзя рассматривать как защищаемый элемент. Честно говоря, мне кажется, что мы дойдём до признания авторства за самими моделями, особенно с повышением автономности агентов ИИ, которые самостоятельно будут ставить задачи и решать их без участия человека. Старая парадигма: это не творчество и его не надо защищать —разбивается о реальность, потому что появляются тексты, музыка, видео, созданные ИИ. При этом считать творцом человека, который написал запрос из двух строчек, —явный перебор.

В. Васильев:

—Надо различать проблему авторских прав по отношению к идеям, знаниям и к текстам. Вообще говоря, авторское право на идею не распространяется, тем более на знания. Другое дело, что текст, созданный GPT-моделью, можно опубликовать в научном журнале. Должна ли редакция его принимать, кто будет нести ответственность за ошибки? Думаю, что всё это в ближайшем будущем станет неактуальным, потому что существующая система научных публикаций себя изжила. В лучших журналах, куда зачастую даже нобелевские лауреаты не могут попасть, сейчас публикуются статьи, которые мог бы создать ChatGPT. Эти совершенно средние публикации, в которых слова соединяются по статистическим закономерностям, попадают в журналы только потому, что так работают фильтры. В новой реальности своё место займут интеллектуальные агенты. Думаю, нам пора привыкать к слову «искин»: искусственный интеллектуальный агент. Нас ждёт сообщество людей и искинов.

Е. Чуковская:

—Все говорят об авторских правах, но никто — об авторских обязанностях. Думаю, что этим и можно измерять, кто готов нести ответственность за то, что сгенерировал ИИ. Авторское право равнодушно к содержанию произведения. Но есть другие нормы, и готовность нести ответственность во многом определит правообладание. Мой коллега Виталий Калятин говорит, что у нас есть время, потому что ИИ не требует поощрения. Но оставить всё это вообще без регулирования — большой риск, потому что будет обесценен результат человеческого труда. Показательный пример — детская книжная иллюстрация. Для многих издательств того, что сгенерируется, достаточно для выпуска книги, которую ребёнок один раз прочтёт, порвёт и выбросит. Один из важных вопросов — надо ли вводить маркировку: создано с помощью ИИ или исключительно естественным путём?

Можно пользоваться аналогиями. Например, тройной стандарт охраны баз данных в ГК РФ, потому что они фигурируют как составные произведения, как сложные объекты, а также как инвестиционные базы данных, охраняемые как смежные права. Возможно, имеет смысл использовать похожую модель, ведь смежные права защищают объекты без фактической творческой деятельности. Базы данных и фонограммы охраняются как объекты, правообладателем которых может быть юридическое лицо. Претендентов в случае ИИ несколько: пользователь нейросети, её собственник и разработчики, тренеры и т.д., но грамотным фильтром будет увязывание права и обязанности. Когда вместе с правом в наборе пойдёт обязанность, желающих сразу станет меньше.

НИЧТО ЕМУ НЕ ЧУЖДО

Может ли ИИ работать на чужом контенте? Что по этому поводу думают правообладатели?

Е. Чуковская:

—Директива № 2019/790 «Об авторском праве и смежных правах на едином цифровом рынке» впервые дала определение машинного обучения, или интеллектуального анализа текстов и данных. Таким образом, пять лет назад появилось прямое указание правительствам государств на то, что вопросы ИИ надо включить в законодательство. В документ вошли три статьи, которые говорят о том, что для образовательных и научно-исследовательских организаций должны быть предусмотрены исключения. В ГК РФ как минимум десяток статей представляют собой ограничения и исключения, например цитирования, обзоры печати. Это похоже на то, что делает ИИ. Я могу сделать ChatGPT запрос на подборку статей, публикаций по определённой теме, и он сделает обзор. Во французском законодательстве исключения делаются для стилизаций и подражаний: их можно создавать без согласия автора. То, что делает Midjourney, — это стилизация. Директива призывает расширить эту часть.

Для того чтобы ИИ развивался, чтобы его можно было быстрее тренировать, надо считать, что для научных и образовательных целей интересы развития технологий превалируют над частными интересами. Организации, обладающие большим количеством охраняемых объектов или информации, которая имеет признаки авторского права, уже пытаются реагировать. Но не думаю, что в этом противостоянии выиграют правообладатели: в таком случае они должны вложиться в способы анализа того, был использован их контент или нет. Но и здесь есть проблема: ChatGPT много фантазирует. Например, в нашей области он придумывает ссылки на несуществующие кейсы, имитирует номера дел.

Большая проблема авторского состоит права в том, что мы не выделяем из всех способов использования потребление. Возможно, для удовлетворения собственных нужд: личных, профессиональных —тоже возможны исключения.

Не вижу необходимости что-то ломать с правовой точки зрения, потому что в законотворчестве со времён Рима был принцип «поспешай медленно». Существующая система как минимум справляется с ситуацией, прежде всего в сфере искусства. Она оказалась достаточно устойчивой к разным инновациям: и к блокчейну, и к NFT.

Есть ли в исследовательском сообществе мнение об обязанности ChatGPT цитировать свои источники?

Д. Косяков:

—В существующей версии ChatGPT такого нет, возможно, появится в пятой модели. Но многочисленные инструменты, которые базируются на похожих технологиях, уже прекрасно с этим справляются. Есть поисковый движок, который многие уже используют вместо Google, потому что он даёт разумные ответы со ссылками на несколько источников, существуют научные сети, предназначенные для того, чтобы давать ответы на базе научных публикаций со ссылками, библиографическими списками. Технических проблем по большому счёту в этом нет. Современные технологии семантического поиска позволяют находить не просто документ, но конкретное место в нём, где необходимая тема описана, причём в кроссязыковом формате.

Споры сейчас ведутся не в этом плане, а за деньги. В частности, New York Times судится с Open AI за контент и ссылается на то, что определёнными промптами можно получить фрагменты полных текстов из материалов, охраняемых копирайтом. Позиция Open AI заключается в том, что тренировка нейросетей, в том числе на закрытом контенте, является легитимным использованием. Мы же позволяем людям что-то прочитать и затем использовать в их деятельности. То же самое касается и моделей. А вот полное заимствование — скорее баг, а не фича¹: специально подобранным промптом удалось вытянуть подобные вещи.

¹ «Баг» —это программная ошибка, дефект. Дословно англ. bug переводится как «жук» или «клоп», а отчёт, содержащий информацию об ошибке, называют bug report. Отдельного упоминания стоит фраза «не баг, а фича», означающая, что всё работает так, как и было задумано. «Фичей» (от англ. feature — «характеристика, свойство») называют дополнительную, специально придуманную (и, возможно, неочевидную) опцию программы. —Примеч. ред.

Дополнительно в Open AI говорят, что юридическое право для них «менее важно, чем быть хорошими гражданами». Да, у правообладателей могут быть претензии, но они предоставляют простой и понятный механизм, для того чтобы исключить их контент из базы для обучения. Кроме того, они пытаются договориться с правообладателями о компенсациях за включение контента в базу данных для обучения.

Сейчас происходит интересный процесс: «перекрёстное опыление» исследований в области нейронаук, психологии, когнитивных наук даёт основополагающее понимание мышления. Есть ряд исследовательских программ, объединяющих специалистов из этих областей, и они пытаются совместно решать вопросы человеческого мышления и функционирования ИИ. Последние достижения дали очень много в плане понимания взаимодействия человеческого сознания с компьютерной средой. И думаю, что хайп, связанный с генеративными моделями, схлынет и надежды на то, что мы создадим с их помощью сильный ИИ, сравнимый с человеческим разумом, не оправдаются. Но возможно, это один из этапов, а на следующем уже получится его создать. Прогресс в этой области феноменален, и мы видим большие перспективы.

Рубрика: Искусственный интеллект и нейросети

Год: 2024

Месяц: Март

Теги: ChatGPT Авторское право Нейросети Искусственный интеллект (ИИ) Екатерина Чуковская Вадим Васильев Денис Косяков